昨天有說到可以使用少量的標記資料和大量未標記資料來做訓練,但即便是這樣的訓練方式,仍然會需要請專家進行標記,還是會要耗費時間與成本
但有一種學習方法不需要定義數據的答案,那就是
在訓練一個模型時,使用的訓練資料全部都沒有答案,讓機器自己從訓練資料集中探索資料點之間有價值的關係資訊,然後模型會將這些發現到的規則運用到測試輸入上,以獲得類似的見解來進行預測。
這種不需要進行標記的方法,因為在資料的準備上較為容易,對我們來說相對簡單;但對於電腦而言較為困難,因為預測的結果無法進行準確的評估,導致誤差可能會較大
我們將在後面討論的降維方法,就算是非監督式學習的一個例子,
原始數據會處在一個比較高的維度座標上,降維方法會刪除一些相關性較低的資訊,找到一個較低維度的座標來描述該數據,使得新的座標不會失去資料本身的特性
非監督式學習很適合用在沒有絕對標準答案的情境上,
像是大家比較有感的可能是推薦系統了,為什麼 YouTube、Google 推薦給我的東西會這麼符合我的喜好?
原因就在於它會找尋跟你有相似性的使用者,並分析他們曾經瀏覽過的內容,然後根據這些資訊來做出個性化的推薦(想法:如果某人和我有相似的瀏覽紀錄或喜好,那麼他們喜歡的東西我可能也會喜歡)